El sesgo de inducción en modelos secuenciales
Investigación muestra que los transformers requieren más datos que las RNN para seguimiento de estado y no comparten pesos entre longitudes. Descubre las diferencias clave.
Investigación muestra que los transformers requieren más datos que las RNN para seguimiento de estado y no comparten pesos entre longitudes. Descubre las diferencias clave.
Mejora la recuperación en contexto y la extrapolación de longitud en atención lineal usando una consulta condicionada por curvatura (CCQ), con bajo costo adicional.